Purpose: Surgery scene understanding with tool-tissue interaction recognition and automatic report generation can play an important role in intra-operative guidance, decision-making and postoperative analysis in robotic surgery. However, domain shifts between different surgeries with inter and intra-patient variation and novel instruments' appearance degrade the performance of model prediction. Moreover, it requires output from multiple models, which can be computationally expensive and affect real-time performance. Methodology: A multi-task learning (MTL) model is proposed for surgical report generation and tool-tissue interaction prediction that deals with domain shift problems. The model forms of shared feature extractor, mesh-transformer branch for captioning and graph attention branch for tool-tissue interaction prediction. The shared feature extractor employs class incremental contrastive learning (CICL) to tackle intensity shift and novel class appearance in the target domain. We design Laplacian of Gaussian (LoG) based curriculum learning into both shared and task-specific branches to enhance model learning. We incorporate a task-aware asynchronous MTL optimization technique to fine-tune the shared weights and converge both tasks optimally. Results: The proposed MTL model trained using task-aware optimization and fine-tuning techniques reported a balanced performance (BLEU score of 0.4049 for scene captioning and accuracy of 0.3508 for interaction detection) for both tasks on the target domain and performed on-par with single-task models in domain adaptation. Conclusion: The proposed multi-task model was able to adapt to domain shifts, incorporate novel instruments in the target domain, and perform tool-tissue interaction detection and report generation on par with single-task models.
translated by 谷歌翻译
安全与其他交通参与者的互动是自动驾驶的核心要求之一,尤其是在交叉点和遮挡中。大多数现有的方法都是为特定场景设计的,需要大量的人工劳动参数调整,以应用于不同情况。为了解决这个问题,我们首先提出了一个基于学习的交互点模型(IPM),该模型描述了代理与保护时间和交互优先级之间的相互作用以统一的方式。我们将提出的IPM进一步整合到一个新颖的计划框架中,通过在高度动态的环境中的全面模拟来证明其有效性和鲁棒性。
translated by 谷歌翻译
Hazop是为揭示行业危害的安全范式,其报告涵盖了有价值的危害事件(HAE)。 HAE分类的研究具有许多不可替代的务实值。但是,没有研究对此主题如此关注。在本文中,我们提出了一种新颖的深度学习模型,称为DLF,从语言的角度通过分形方法探索HAE分类。动机是(1):HAE自然可以被视为一种时间序列; (2):HAE的含义是由单词排列驱动的。具体而言,首先我们采用bert来矢量化hae。然后,我们提出了一种称为HMF-DFA的新的多型方法,通过分析被视为时间序列的HAE矢量来计算HAE分形系列。最后,我们设计了一个新的分层门控神经网络(HGNN)来处理HAE分形系列以完成HAE的分类。我们进行了18个过程进行案例研究。我们根据他们的Hazop报告启动实验。实验结果表明,我们的DLF分类器令人满意和有前途,提出的HMF-DFA和HGNN有效,并且将语言分形引入HAE是可行的。我们的HAE分类系统可以为Hazop提供服务,并为专家,工程师,员工和其他企业带来应用激励措施,这有利于工业安全的智能发展。我们希望我们的研究能为工业安全和分形理论的日常实践提供更多支持。
translated by 谷歌翻译
Hazop可以将危害作为文本信息暴露,研究其分类对于工业信息学的发展具有重要意义,这有利于安全性预警,决策支持,政策评估等。但是,对这一重要的研究没有研究目前。在本文中,我们提出了一种通过深度学习危害分类来称为DLGM的新型模型。具体而言,首先,我们利用BERT将危险矢量化并将其视为时间序列(HTS)。其次,我们构建了一个灰色模型FSGM(1,1)来对其进行建模,并从结构参数的意义上获得灰色指导。最后,我们设计了一个层次 - 特征融合神经网络(HFFNN),以从三个主题中使用灰色指导(HTSGG)调查HTS,其中HFFNN是一种具有四种模块的层次结构:两种功能编码器,一个门控机制,和一个门控机制和一个模块。加深机制。我们将18个工业流程作为应用程序案例,并启动一系列实验。实验结果证明,DLGM有望成为危险分类的才能,FSGM(1,1)和HFFNN具有有效性。我们希望我们的研究能为工业安全的日常实践贡献价值和支持。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
败血症是ICU死亡的主要原因。这是一种需要在短时间内进行复杂干预措施的疾病,但其最佳治疗策略仍然不确定。证据表明,当前使用的治疗策略的实践是有问题的,可能对患者造成伤害。为了解决这个决策问题,我们提出了一个基于历史数据的新医疗决策模型,以帮助临床医生建议实时治疗的最佳参考选项。我们的模型将离线强化学习与深入的强化学习结合在一起,以解决医疗保健中传统的强化学习无法与环境互动的问题,从而使我们的模型能够在连续的国家行动空间中做出决策。我们证明,平均而言,模型推荐的治疗方法比临床医生建议的治疗更有价值和可靠。在大型验证数据集中,我们发现临床医生实际剂量与AI的决定相匹配的患者的死亡率最低。我们的模型为败血症提供了个性化的,可解释的治疗决策,可以改善患者护理。
translated by 谷歌翻译
最近,基于合成数据的实例分割已成为一种极其有利的优化范式,因为它利用模拟渲染和物理学来生成高质量的图像宣传对。在本文中,我们提出了一个并行预训练的变压器(PPT)框架,以完成基于合成数据的实例分割任务。具体而言,我们利用现成的预训练的视觉变压器来减轻自然数据和合成数据之间的差距,这有助于在下游合成数据场景中提供良好的概括,几乎没有样本。基于SWIN-B基的CBNET V2,基于SWINL的CBNET V2和SWIN-L基统一器用于并行特征学习,并且这三个模型的结果由像素级非最大最大抑制(NMS)算法融合来获得更强大的结果。实验结果表明,PPT在CVPR2022 AVA可访问性视觉和自主性挑战中排名第一,地图为65.155%。
translated by 谷歌翻译
可区分的搜索索引(DSI)是一个新的新兴范式,用于信息检索。与索引和检索是两个不同且独立的组件的传统检索体系结构不同,DSI使用单个变压器模型执行索引和检索。在本文中,我们确定并解决了当前DSI模型的重要问题:DSI索引和检索过程之间发生的数据分布不匹配。具体而言,我们认为,在索引时,当前的DSI方法学会学会在长文档文本及其标识之间建立连接,但是在检索中,向DSI模型提供了简短的查询文本以执行文档标识符的检索。当使用DSI进行跨语言检索时,此问题进一步加剧,其中文档文本和查询文本使用不同的语言。为了解决当前DSI模型的这个基本问题,我们为DSI称为DSI-QG的简单而有效的索引框架。在DSI-QG中,文档由索引时间的查询生成模型生成的许多相关查询表示。这允许DSI模型在索引时将文档标识符连接到一组查询文本,因此减轻索引和检索阶段之间存在的数据分布不匹配。流行的单语言和跨语性通过基准数据集的经验结果表明,DSI-QG明显优于原始DSI模型。
translated by 谷歌翻译
在这封信中提出了一种新的基于触诊的切口检测策略,潜在地用于机器人气管术。引入触觉传感器以通过轻轻接触测量特定喉部区域中的组织硬度。提出了内核融合方法以将平方指数(SE)内核与ornstein-uhlenbeck(OU)内核组合,以弄清楚现有内核功能在这种情况下的缺点是不够最佳的。此外,我们进一步规则化探索因子和贪婪因子,并且触觉传感器的移动距离和机器人基准的旋转角度在切口定位过程中被认为是采集策略中的新因素。我们进行了模拟和物理实验,以比较新提出的算法 - 重新分配采集策略与热气检测中的能量限制(RASEC),具有当前的触诊的采集策略。结果表明,具有融合内核的建议采集策略可以通过最高算法性能成功定位切口(平均精度0.932,平均召回0.973,平均F1得分0.952)。在机器人触发过程中,累积移动距离减少了50%,累积旋转角度减少了71.4%,没有牺牲在综合性能能力中。因此,证明RASEC可以有效地表明喉部区域中的切割区域,大大降低了能量损失。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译